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基于 药物 和 疾病 特征 关联 的 药物 重 定位 混合 推荐 算法 
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摘 要 : 针对 基于 协同 过 滤 的 药物 重 定位 算法 进行 了 研究 ,考虑 到 数据 稀疏 性 对 协同 过 滤 算 法 的 巨大 影响 ， 提 出 一 种 
基于 药物 和 疾病 特征 关联 的 药物 重 定 位 混合 推荐 算法 。 该 算法 不 仅 使 用 了 药物 和 疾病 关系 数据 , 还 利用 了 药物 结构 、 
靶 蛋 白 、 副 作用 以 及 药物 一 疾病 特征 敌阵 等 信息 计算 药物 之 间 的 相似 性 ， 降 低 了 数据 稀 朴 性 对 推荐 效果 的 影响 ， 提 
高 了 推荐 精度 。 经 过 对 比 实验 发 现 ， 该 算法 具备 较 好 的 推荐 效果 ， 并 能 够 发 据 具 有 潜在 联系 的 药物 -疾病 组 合 ， 从 而 
进一步 验证 了 该 算法 可 以 有 效 地 应 用 于 药物 重 定位 。 
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Hybrid recommendation algorithm for drug repositioning based on 
association of drug and disease characteristics 


Liu Jie*t, Jin Liuqin, Jing Bo 
(a. Institute of Industry &Equipment Technology, b. National "111 Plan" Gerontechnology Innovate Base, HeFei University 
of Technology, Hefei 230000, China) 


Abstract: The algorithm of drug repositioning based on collaborative filtering was studied. Considering the great influence 
of data sparsity on collaborative filtering algorithm, this paper proposed a hybrid recommendation algorithm based on the 
association of drug and disease characteristics. The algorithm not only used the data of drug and disease, but also used the 
information of drug structure, target protein, side effect and drug-disease feature matrix to calculate the similarity between 
drugs, which reduced the influence of data sparsity to the recommendation effect and improves the precision of 
recommendation. The results of contrastive experiment showed that the algorithm has a good recommendation effect, and 
can explore the drug-disease combinations which have potential relationship, and further verified that the algorithm can be 
effectively applied to drug repositioning. 
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0 引言 1 ”药物 重 定位 算法 
药物 重 定位 ， 又 称 老 药 新 用 ， 指 对 于 已 批准 应 用 于 临床 从 药物 重 定位 被 提出 以 来 ， 很 多 专家 、 学 者 投入 大 量 精 
Do 或 者 未 上 市 但 结构 明确 、 生 物 活性 已 知 的 药品 ， 通 过 进一步 力 研究 药物 重 定位 算法 。Hopkins 凶 提出 网 络 药理 学 是 药物 发 
一 研究 ， 扩 大 其 适应 症 、 发 现 其 新 的 作用 靶 点 口 。 现 的 一 个 强 有 力 的 工具 ; Kinnings 等 人 Bl 采用 支持 向 量 机 
传统 的 新 药 研发 通常 要 经 历 研 究 和 开发 两 个 阶段 ， 每 个 CSupport Vector Machines) 改进 了 药物 - 靶 标 对 接 评 估 技 术 ， 
阶段 又 有 多 个 过 程 ， 是 一 个 长 期 、 艰 难 和 昂贵 的 过 程 ， 尽 管 并 应 用 于 寻找 结核 杆菌 的 直接 抑制 剂 ，Andronis 等 人 外 提出 
近年 来 药物 研发 的 投入 越 来 越 高 ， 但 是 新 药 的 批准 率 却 没有 利 用 文献 挖 气 方 法 结合 合 大 量 生 物 学 注释 和 可 视 化 工具 整合 数 
增加 反而 有 降低 的 趋势 。 因 此 ， 能 大 大 缩短 药物 研发 所 需 的 据 ， 有 助 于 发 现 已 有 药物 和 新 适应 症 之 间 的 关系 ; Huang 等 


才 间 、 经 费 且 研发 的 成 功率 远 远 高 于 传统 新 药 研 发 模式 的 * 药 。 人 四则 将 机 器 学 习 算法 和 拓扑 图 理论 应 用 到 非 小 细胞 肺癌 药 
物 重 定 位 ”模式 逐渐 成 为 很 多 科研 机 构 、 医 药 企业 看 重 的 策 。 物 再 定位 中 ; 文献 [6,7] 将 推荐 系统 中 的 传统 协同 过 滤 算 法 改 
各 之 一 。 进 后 用 于 药物 重 定位 中 ; Hu 等 人 名 对 约 7 000 个 药物 作用 和 
在 考虑 药物 重 定 位 时 ， 可 从 不 同 角 度 开展 研究 ， 主 要 包 ”疾病 相关 的 基因 表达 谱 进行 了 分 析 ， 依 据 Pearson 相关 系数 
括 基于 台 点 和 基于 临床 观察 三 个 方面 。 但 无 论 是 。 计算 表达 谱 之 间 的 相似 性 ， 构 建 了 包含 165 374 对 药物 一 药 
从 哪个 方面 进行 药物 重 定位 研究 都 需要 研究 人 员 对 疾病 和 药 物 相似 关系 的 网 络 ， 并 采用 聚 类 方法 对 药物 进行 分 析 。 
物 有 全 面 和 深刻 的 理解 ， 研 究 人 员 将 不 同 渠 道 来 源 的 数据 汇 由 于 数据 稀 疏 性 对 传统 协同 过 滤 算 法 的 推荐 效果 影响 较 
总 成 为 大 数据 并 加 以 总 结 和 分 析 可 以 提高 药物 重 定位 的 研究 ”大 且 用 于 计算 药物 之 间 相 似 度 的 药物 一 结构 和 矩阵、 药物 一 加 
但 如 何在 海量 数据 中 更 为 高 效 地 发 掘 出 有 价 ”蛋白 和 矩阵、 药物 一 副作用 矩阵 以 及 药物 一 疾病 矩阵 的 数据 稀 
值 的 信息 也 成 为 研究 人 员 面 对 的 一 个 重要 问题 ， 这 就 为 个 性 ”下 C 度 都 较 高 ， 所 以 将 传统 协同 过 滤 算 法 应 用 于 药物 重 定位 虽 
化 推荐 算法 应 用 于 药物 重 定位 提供 了 一 个 契机 。 然 有 一 定 的 效果 ， 但 仍 有 不 小 的 提升 空间 。 本 文 提 出 一 种 基 
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于 药物 和 疾病 特征 关联 的 药物 重 定位 混合 推荐 算法 ， 通 过 引 
入 疾病 特征 向 量 和 药物 -疾病 特征 矩阵 , 在 充分 利用 了 相关 数 
据 和 矩阵 的 同时 降低 了 数据 稀 疏 性 对 推荐 效果 的 影响 ， 提 高 了 
基于 个 性 化 推荐 的 药物 重 定位 算法 的 精确 度 。 本 文 所 提 算 法 
框架 如 图 1 所 示 。 


> 六 疾病 
上 深入 
推荐 疾病 
列表 

图 1 所 提 混 合 推荐 算法 架构 


Fig. 1 Framework of the proposed hybrid recommendation algorithm 


2 ”药物 一 疾病 特征 关系 向 量 


药物 -结构 和 矩阵、 药 
物 - 靶 蛋白 矩阵 、 药 
物 -副作用 甜 阵 


药物 -药物 之 
间 的 相似 度 


本 文 所 提 算 法 主要 结合 协同 过 滤 算 法 和 基于 人 口 统计 学 的 推 
荐 算法 ， 其 中 协同 过 滤 算 法 从 被 提出 开始 就 被 应 用 于 各 个 场 
景 条 


音乐 以 及 应 用 最 广泛 的 电子 商务 领域 ， 在 早期 协 


闻 、 电 影 、 
j 过 滤 算 法 
f 究 中 ，Sarwar 等 人 0 将 基于 用 户 和 基于 项 目的 协同 过 滤 


0 领域 , 从 一 开始 在 邮件 系统 中 的 应 用 到 后 面 新 闻 


算法 进行 了 对 比 研 究 发 现 基于 项 目的 协同 过 滤 具 有 更 好 的 性 


而 最 著名 的 电子 商务 推荐 系统 应 属 亚马逊 网 络 书店 ， 


Linden 等 人 0 详细 描述 了 亚马逊 网 站 中 使 用 的 协同 过 滤 算 
法 的 原理 ， 并 与 传统 的 协同 过 滤 算 法 对 比 说 明 亚 马 进 推荐 算 
法 对 的 优势 ， 进 一 步 推动 了 协同 过 滤 算 法 的 发 展 。 然 而 协同 
过 滤 算法 在 具有 很 多 优势 的 同时 也 存在 冷 启动 和 数据 稀 玻 性 
等 问题 ， 很 多 研究 者 都 将 精力 投入 到 如 何 弥 补缺 点 从 而 提高 


E 荐 效果 的 研究 中 。 基 于 人 口 统计 学 的 推荐 就 是 根据 人 口 统 


计 学 数据 对 每 个 用 户 聚 类 ， 通 过 聚 类 计算 用 户 相 似 度 09。 本 
文 所 提出 的 算法 主要 应 用 于 药物 重 定 位 ， 通 过 将 药物 看 做 用 


传统 协同 过 滤 算 法 主要 使 用 用 户 评分 矩阵 来 计算 用 户 2 
间 的 相似 度 ， 所 以 它 的 推荐 效果 很 容易 受到 评分 矩阵 数据 稀 
玻 性 的 影响 ,很 多 学 者 研究 此 领域 时 都 会 考虑 到 解决 数据 稀 
玻 性 这 一 问题 ， 其 中 就 包括 聚 类 和 填 值 ， 文 献 [9] 提 出 的 一 种 
E 则 化 的 局 部 学 习 方法 就 可 以 达到 微 阵列 缺失 值 填补 的 效 
果 。 本 文 将 个 性 化 推荐 算法 应 用 于 药物 重 定位 领 ， 将 药物 视 
为 用 户 , 疾病 视 为 项 目 , 药物 一 疾病 关系 矩阵 看 做 评分 矩阵 ， 
于 一 种 药物 治疗 的 疾病 类 型 有 限 ， 所 以 药物 一 疾病 关系 矩 
阵 一 般 稀 玻 性 都 比较 大 ,如 果 仅仅 使 用 传统 的 协同 过 滤 算 法 ， 
往往 很 难 有 较 好 的 推荐 效果 ， 考 虑 将 疾病 本 身 具 有 的 属性 引 


户 ， 疾 病 看 做 项 目 ， 融 合 基于 人 口 统计 学 推荐 和 基于 用 户 的 
协同 过 滤 算 法 的 基本 思想 ,并 结合 药物 -疾病 特征 矩阵， 从 而 


产生 本 文 所 提 混 合 推荐 算法 。 将 基于 人 口 统计 学 推荐 和 基于 
用 户 的 协同 过 滤 算 法 应 用 于 药物 重 定位 的 工作 原理 如 图 


。 图 中 ，(a) 是 基于 用 户 的 协同 过 滤 算 法 原理 示意 图 ， 药 物 
A 对 疾病 A、C 有 疗效 ， 药 物 C 对 疾病 A、C、D 有 疗效 ， 
此 时 认为 药物 A、C 相似 ,因此 认为 药物 A 对 疾病 D 也 


之 间 相 似 度 的 就 是 药物 -疾病 矩阵 ，(b) 是 基于 人 口 统计 


忆 此 将 疾病 D 推荐 给 药物 A， 此 种 算法 中 用 来 衡量 药物 


全 
到 


荐 算法 原理 示意 图 , 由 图 可 以 看 出 ,药物 A 和 药物 C 具 


入 到 药物 相似 度 计 算 当 中 ， 从 而 有 更 多 的 信息 来 计算 药物 相 
似 度 ， 减 小 数据 稀疏 性 对 推荐 算法 的 影响 。 通 过 分 析 对 疾病 
的 描述 ， 可 以 较为 简单 地 获取 疾病 的 一 些 属 性 ， 比 如 致 病因 
子 、 患 病 性 别 、 患 病 部 位 、 发 病 过 程 等 ， 这 些 属性 会 被 用 来 
描述 疾病 的 特征 从 而 用 于 药物 相似 度 计 算 。 
用 D={di,d2,…,ds} 来 表示 疾病 集合 ， 那 么 每 种 疾病 的 特征 
值 可 以 表示 为 玉 =awraw2.…as， 其 中 a 表示 疾病 d; 属 性 的 
类 别 ， 丈 表示 疾病 必 的 特征 ，! 表示 用 来 表示 疾病 特征 的 属 
性 个 数 。 
有 了 每 种 疾病 的 特征 之 后 ， 可 以 开始 计算 药物 一 疾病 特 
征 关系 向 量 , 用 了 ={y,y2,…,ym} 表示 药物 集合 , 用 C={a,c2,…,c4} 
表示 所 有 疾病 属性 类 别 集合 ,其 中 q 表示 疾病 属性 类 别 总 数 ， 
则 可 以 用 已 =twwoww ww} 表示 药物 yj 的 药物 -疾病 特征 关 
系 向 量 , 其 中 wx 反映 药物 y; 对 疾病 属性 类 别 o 的 作用 程度 。 
对 药物 y; 的 药物 -疾病 特征 关系 向 量 可 以 通过 以 下 步骤 计算 : 

获取 药物 六 有 疗效 的 疾病 集合 D, ={dn,dn,…,dik} ，z 表示 
药物 y; 有 疗效 的 疾病 个 数 。 计 算 集合 D, 中 每 种 疾病 特征 值 
及 ， 然 后 计算 出 D, 总 特征 值 Fo, 为 


hn 
Po, -之 以 (1) 


统计 fo, 中 每 种 属性 类 别 的 个 数 ， 按 类 别 填 入 药物 yj 的 
药物 一 疾病 寺 征 关系 向 量 Fy, ={Wyn, Wy2,.., Wyg} 。 


3 ”基于 药物 一 疾病 特征 答 阵 的 混合 推荐 


3.1 基本 原理 
近年 来 , 个 性 化 推荐 系统 在 影视 、 电 子 商务 、 网 络 广告 、 
社交 网 络 等 领域 都 得 到 了 巨大 发 展 00， 而 作为 推荐 系统 核心 


(9) 与 基于 人 口 统计 学 的 推荐 算法 (b) 原 理 图 


后 ， 可 以 将 它们 组 成 所 需 的 药物 -疾病 特征 和 矩阵， 基于 药物 
疾病 特征 矩阵 并 融合 上 述 基于 人 口 统计 学 推荐 和 基于 用 户 的 
协同 过 滤 算法 ， 联 合计 算出 药物 之 间 的 相似 度 并 作出 推荐 。 
3.2 相似 度 计 算 


物 一 结构 、 药 物 一 靶 蛋 白 和 药物 一 副 作 
基于 药物 一 疾病 矩阵 的 相似 度 ; c) 基 于 药物 一 疾病 特征 矩阵 
的 相似 度 。 用 Sim 表示 相似 度 a，Simc 表示 相似 度 b，sSimr 表 


昌 似 的 结构 、 相 同 的 误 蛋 白 和 相同 的 副作用 ， 此 时 认为 药物 
A、C 相似 ， 因 此 将 药物 A 有 疗效 的 疾病 A 推荐 给 药物 C， 
此 时 将 药物 -结构 和 矩阵、 药物 - 驾 蛋 白 和 矩阵 以 及 药物 -副作用 拢 
阵 看 成 药物 的 人 口 统计 学 数据 ， 并 利用 这 三 种 数据 对 药物 聚 
类 计算 药物 相似 度 ， 因 为 矩 
加 丰富 ， 所 以 利用 这 三 种 矩阵 来 衡量 药物 之 间 的 相似 度 更 加 
精确 。 


中 
ul 


阵 数据 比 单纯 的 某 种 性 质数 据 更 
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图 2 基于 用 户 的 协同 过 滤 算 法 


Fig.2 User based collaborative filtering algorithm(a) and 


demographic-based recommendation(b) 


在 按 步 又 计算 得 到 每 种 药物 的 药物 -疾病 特征 关系 向 量 


本 文 提 出 的 混合 算法 包含 三 部 分 相似 度 计算 : a) 基 于 药 
FE 用 和 矩阵 的 相似 度 ;b) 


的 推荐 算法 也 成 为 越 来 越 多 专家 学 者 的 研究 对 象 并 被 灵活 应 
用 于 其 他 场景 ， 如 杨 矫 云 等 将 推荐 算法 应 用 于 选择 生物 块 以 
加 速 遗 传 电路 设计 5。 个 性 化 推荐 算法 种 类 很 多 ， 比 如 协 


可 


过 滤 算 法 、 基 于 内 容 的 推荐 以 及 基于 人 口 统计 学 的 推荐 等 ， 


示 相 似 度 c, 总 相似 度 表示 为 Simr 。 因 此 , 药物 y 与 药物 yj 之 
则 的 总 相似 度 可 以 用 式 (2) 表示 。 


Simr (yi, yj;) = QASimc (yi, yy;) + BSimr (yi, yi;) +d-w-D) Simplyi, y;) (2) 


中 0za,B,a+Bz<1， 相似 度 Simeclyi,yj) 可 以 用 余 强 相似 度 计 
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算 ， 如 式 (3) 所 示 。 


Simc (yi, yj;)= (3) 


ChinaXiv 合 作 期 刊 
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验证 实验 。 本 文 所 提 算 法 需要 用 到 的 药物 -疾病 特征 矩阵 数据 


需要 基于 疾病 特征 获取 , 本 文 所 涉及 疾病 特 人 
整理 
药物 ， 疾 病 为 720 种 、 


征 均 为 人 工 查询 、 


和 标注 。 数 据 处 理 之 后 用 于 本 实验 的 药物 总 数 为 536 种 
1386 种 副作用 、776 种 鞭 蛋 白 和 882 


种 结构 ， 其 中 训练 集 占 90%， 训 练 集 药物 一 疾病 矩阵 数据 稀 


其 中 : n 表示 疾病 总 数 ， 代表 药物 ;对 疾病 di 是 否 有 效 。 


加 1, y 对 4d 有 效 

2 对 无 效 出 

其 中 可 以 取 i 或 者 j。 
另外 ， 相 似 度 SimcGyi,yj) 可 以 用 式 (5) 计算 。 

Soc0n27D= 全 ee (5) 
其 中 :表示 药物 六 有 疗效 的 疾病 集合 ，B, 表示 药物 y; 有 
疗效 的 疾病 集合 ; 考虑 到 药物 -疾病 矩阵 的 特殊 性 并 经 过 实验 
验证 后 发 现 , 采用 式 (5) 计算 药物 之 间 的 相似 度 推荐 精度 更 


高 ， 所 以 本 文 所 提 算 法 采用 式 (5) 计算 相似 度 Simc Gi,y))。 
相似 度 Simolyi,y) 主要 包含 三 个 部 分 ， 基 于 药物 -结构 矩 
阵 相似 度 、 基 于 药物 - 靶 蛋 白 和 矩阵 相似 度 和 基于 药物 -副作用 
矩阵 的 相似 度 ， 但 本 文 认为 药物 -结构 矩阵 和 药物 - 靶 蛋 白 矩 
阵 贡 献 的 相似 度 程 度 相 同 ， 所 以 SimoGyi,y)) 可 以 表示 如 下 : 


Simplyi, y;) =7* Sime(yi, y)) 


UU 


+Sim ,yy) + Sim ,Cy,,y))) (6) 


其 中 : 0<ys<1， Simzlyi,y)) 表示 基于 药物 -副作用 和 矩阵 的 药物 
y¥，y 的 相似 度 ，SimsCyi,y)) 表示 基于 药物 -结构 矩阵 相似 度 、 
Simelyi,yj) 表示 基于 药物 - 肚 和 蛋白 矩阵 相似 度 ， 与 Simcyi,y)) 类 
似 ， 这 三 种 相似 度 也 用 式 〈3) 中 方法 或 者 式 〈5) 中 方法 来 
计算 , 综合 考虑 比较 后 ， 本 文 所 述 算 法 选择 式 (5) 所 述 方法 
来 计算 这 三 种 相似 度 。 

于 药物 一 疾病 特征 矩阵 的 特殊 性 , 相似 度 SimrGi,y)) 的 
计算 并 不 采用 余弦 相似 度 计 算 ， 而 是 通过 式 (7) 来 计算 。 


Q 
Sims (yi y)) = > min(wy, wy) 
1=!1 


了 
这 Iax(Ww wy ) (7) 


其 中 : q 表示 疾病 属性 类 别 总 数 ，w 反映 药物 ”对 疾病 属性 
类 别 o 的 作用 程度 ，w 反映 药物 ”对 疾病 属性 类 别 o 的 作 
用 程度 。 

3.3 评分 表示 方法 


特 和 


玻 程 度 为 0.9944, 药物 一 副作用 矩阵 数据 稀 玻 程度 为 0.9451， 
药物 一 轰 蛋 
和 珑 阵 数据 稀 疏 程度 为 0.8603 〈 稀 疏 度 的 计算 主要 是 根据 数据 
矩阵 的 无 作用 数据 占 总 数据 的 比例 ) 。 
文采 用 
征 进 行 了 梳理 ， 并 主要 划分 为 四 个 属性 : 


和 矩阵 数据 稀疏 程度 为 0.9956 以 及 药物 一 结构 


在 疾病 特征 方面 ， 
人 工 查询 、 整 理 和 标注 的 方式 对 涉及 的 720 种 疾病 
病因 (包括 细 


= 


感染 、 真 菌 感 染 、 病 毒 感染 以 及 寄生 虫 等 )， 发 病 性 别 


女 ， 


( 男 ， 
儿童 )》， 病 症 部 位 (心脏 ,四 肢 ， 消 化 系统 ， 神 经 系统 


以 及 皮肤 等 ) ， 发 病 过 程 〈 急 性 、 慢 性 ) 。 


4.1 


(mean absolute error MAE ) 作为 度 


评测 指标 
为 表明 实验 结果 好 坏 ， 本 文 首先 采用 了 平均 绝对 误差 
量 算 法 优 劣 的 指标 。 


MAE = Deol (9) 


其 中 : 也 表示 待 预测 药物 集合 ， 忆 表示 药物 有 预测 值得 疾 
病 集合 ，N 表示 所 有 预测 值 的 总 数 ， 方 表示 药物 ”对 疾病 4 


1 


的 预测 值 ， 广 表示 药物 对 疾病 4d; 的 真实 值 。 


然而 通过 进 邻居 药物 对 疾病 的 有 效 


步 研 究 发 现 ， 根 和 


性 以 及 与 邻居 之 间 的 相似 度 计 算出 目标 药物 对 各 种 疾病 的 预 
上 值 ， 如 果 如 传统 的 电影 
本 身 表 示 药 物 对 该 疾病 的 有 效 性 , 然后 计算 MAE, 此 时 MAE 
能 够 反映 算法 优 劣 。 但 由 于 在 药物 -疾病 矩阵 这 一 背景 下 ,， 药 
物 对 疾病 有 效 就 表示 为 1, 无 效 就 表示 为 0, 正 是 1 
一 特点 ， 在 本 实验 中 仅 用 
法 性 能 优 务 ， 此 时 更 合适 
(precision) 以 及 E 值 这 三 个 指标 来 衡量 算法 优 劣 ， 
确 率 以 及 F 值 的 定义 如 〈10) ~ (12) 所 示 。 


评分 推荐 系统 那样 


用 这 个 预测 值 


于 存在 这 
MAE 并 不 能 很 精确 地 体现 各 种 算 
天 的 是 使 用 召回 率 (recalD) 、 准 确 率 
召回 率 、 准 


Np 
Recall=— 
eca D; (10) 


i Np 
Precision=— 
Nr 


(11) 


万 = 2. Recall: ee (12) 
Recall + Precision 
数 ，Dr 


比 吕 


FP: Ne 表示 推荐 列表 中 评分 与 真实 情况 相符 的 项 


得 出 药物 ”与 其 他 所 有 药物 的 相似 度 后 ， 选 取 相 似 度 值 
按 大 小 排名 前 t 个 药物 作为 药物 y 的 邻居 用 来 计算 药物 ”对 
各 种 疾病 的 有 效 值 ， 药 物 对 疾病 由 的 有 效 值 可 以 用 式 
(8) 计算 。 


> EN Simr (yi, ye) ra 
Py - - 
> Simr (yi, yx) 


其 中 :WN ={y.… 表示 药物 y 的 邻居 ， 药 物 y 是 其 中 一 个 


4 ”实验 结果 分 析 


本 文 实验 数据 集 以 文献 [6] 中 所 使 用 到 的 相关 数据 信息 
为 基础 ， 并 基于 这 些 数 据 做 了 一 些 处 理 。 为 了 充分 利用 相关 
数据 并 整理 出 本 文 所 需 数据 ， 首 先 从 药物 一 疾病 、 药 物 一 结 
构 、 药 物 一 靶 蛋 白 以 及 药物 一 副作用 表格 数据 提取 出 共有 的 
药物 ， 然 后 用 这 些 共 有 药物 的 四 种 矩阵 数据 来 开展 本 文 算法 


表示 | 
总 数 , 即 
也 越 高 , 算法 越 好 , 但 事实 上 这 两 者 在 某 些 情况 下 
而 上 值 是 precision 和 recall 加 权 调 和 和 平均， 也 就 是 一 
评价 指标 。 


4.2 


j 户 真实 评分 过 的 项 目 总 数 ，N 表示 推荐 列表 中 的 项 目 
佳 荐 列表 长 度 。 理 论 上 , 当 precision 越 高 , 同时 recall 
了 了 矛盾 的 ， 


个 综合 


实验 结果 
为 了 验证 仅 使 用 


MAE 作为 评测 指标 并 不 能 很 好 地 反映 


算法 优 劣 ， 本 文 首先 仅 用 MAE 作为 评测 指标 进行 了 一 组 实 


验 ， 
(2 


大 这 本 


因为 本 文 所 提 算 法 涉及 多 种 相似 度 计算 ， 总 相似 度 由 式 
) 计算 得 出 ， 由 式 (2〉 可知 ， 如 果 要 计算 总 相似 度 ， 则 


需要 决定 因子 a 和 8B 的 取 值 ， 经 过 多 次 实验 后 最 终 确定 a 
=0.6、B=0.3 以 及 y=0.8 ， 同 时 为 了 更 直观 地 体现 本 算法 在 


性 能 上 的 提升 ， 本 文采 用 对 比 实验 ， 


实验 结果 如 图 3 所 示 ， 


FP 横 轴 k-near 表示 推荐 过 程 中 邻居 个 数 。 


通过 图 3 可 以 看 出 , 如果 采 用 MAE 衡量 算法 性 能 优 劣 ， 


于 药物 本 身 特 点 的 推荐 和 本 文 所 提 算 法 的 实验 结果 都 优 于 


201901.00042v1 


chinaXiv 


录用 定稿 刘 


传统 协同 过 滤 算 法 , 而 且 随 着 邻居 数 的 增加 , 效果 越 来 越 好 ， 
最 后 趋 于 收敛 。 但 从 图 3 也 可 以 看 出 基于 药物 本 身 特点 的 推 
荐 效果 与 本 文 所 提 算 法 相 比 效果 十 分 接近 ， 而 它 的 复杂 程度 
却 远 远 小 于 本 文 所 提 算 法 ,所 以 这 并 不 是 一 个 好 的 实验 结果 ， 


此 引发 对 实验 方案 和 评测 指标 的 进一步 思考 。 


0.25『 


k-near 
图 3 三 种 算法 MAE 结果 比较 

Fig.3 MAE results’ comparison of the three algorithms 

为 了 进一步 优化 实验 ， 本 文 使 用 召回 率 、 准 确 率 以 及 下 
值 来 作为 评测 指标 进行 实验 , 考虑 到 药物 一 疾病 矩阵 的 特点 : 
药物 对 疾病 有 效 就 表示 为 1, 无 效 就 表示 为 0, 本 文 提出 另 一 
种 确定 预测 值 的 方案 ， 从 而 解决 算法 效果 不 佳 以 及 MAE 不 
能 较为 精确 的 反映 算法 效果 的 问题 。 通 过 相似 度 Simr 计算 得 
到 的 预测 值 ， 往 往 是 介 于 0 到 1 之 间 的 小 数 ， 而 药物 与 疾病 
之 间 只 存在 两 种 状态 : 有 效 或 者 无 效 ， 如 果 像 类 似 于 电影 推 
荐 系统 那样 ， 就 以 计算 得 到 的 预测 值 作 为 药物 与 疾病 的 状态 
值 ， 显 然 是 不 合理 的 ， 因 此 本 文 确定 闵 值 为 4， 将 计算 得 出 
的 预测 值 大 于 4 的 置 为 1, 小 于 或 等 于 4 的 预测 值 置 为 0， 以 
此 计算 MAE， 同 时 ， 只 向 药物 推荐 预测 值 为 1 的 疾病 。 这 样 
处 理 之 后 显然 会 存在 一 个 问题 ， 那 就 是 召回 率 会 降低 。 此 时 
将 召回 率 和 准确 率 带 入 到 本 文 所 在 场景 中 : 用 一 种 方法 对 一 
种 药物 进行 一 系列 分 析 , 得 出 了 20 种 这 种 药物 可 能 有 疗效 的 
疾病 , 然后 发 现 此 药物 真 的 对 这 20 种 疾病 都 有 效 , 但 实际 上 
这 个 药物 对 40 种 疾病 都 有 疗效 。 在 上 述 场景 中 ， 准 确 率 是 
100%， 召回 率 是 50%, 但 这 种 结果 感觉 上 是 很 可 靠 的 ， 
它 能 够 很 准确 的 发 现 药物 的 疗效 ， 虽 然 它 并 不 能 发 掘 出 所 有 
药物 能 够 治疗 的 疾病 ， 但 是 只 要 它 发 掘 出 一 种 疾病 ， 这 个 疾 
病 在 很 大 概率 上 是 能 被 相应 药物 治疗 的 ， 因 此 准确 率 越 大 越 
符合 药物 重 定位 的 思想 ， 但 是 如 果 在 保证 准确 率 很 大 的 前 提 


下 仍然 能 有 较 好 的 召回 率 ， 即 推荐 的 疾病 不 仅 准 而 且 全 ， 那 
效果 当然 更 好 。 


基于 上 述 分 析 ， 本 文 最 终 采 用 按 初 步 预测 值 是 否 超过 立 
值 置 最 终 预测 值 为 1 或 0 且 仅 推荐 预测 值 为 1 的 方法 来 进行 
推荐 并且 在 实验 之 后 确定 4 为 0.7 时 具有 最 佳 效 果 ， 实 验 
结果 如 图 4~6 所 示 ， 可 以 看 出 ， 图 中 没有 呈现 基于 药物 特点 
全 荐 的 实验 结果 ， 但 实际 上 基于 药物 特点 推荐 的 实验 结果 也 
有 ， 只 不 过 该 种 算法 结果 与 本 文 所 提 算 法 和 传统 协同 过 滤 算 
法 差距 悬殊 ， 所 以 就 并 没有 放 在 一 起 比较 ， 而 是 以 表格 形式 
呈现 了 结果 ， 基 于 药物 特点 推荐 的 实验 结果 如 表 1 所 示 。 
图 4~6 可 以 看 出 ， 本 文 所 提 算 法 在 各 个 评测 指标 上 的 
实验 结果 均 优 于 传统 协同 过 滤 算 法 ， 在 具有 较 高 准确 率 的 同 
时 也 能 保证 较 好 的 FE 值 。 同 时 也 可 以 看 出 ， 仅 仅 基于 药物 一 
结构 、 药 物 一 裔 蛋白 和 药物 -副作用 矩阵 进行 推荐 的 效果 并 不 
理想 ， 这 也 进一步 证 明了 开始 用 未 优化 的 MAE 来 衡量 算法 
优 劣 的 不 合理 性 。 而 传统 的 协同 过 滤 算 法 在 性 能 上 虽然 不 如 
本 文 所 提 算 法 ， 但 仍然 具有 不 错 的 效果 ， 这 也 进一步 表明 个 
性 化 推荐 算法 在 药物 重 定向 领域 应 用 具有 可 行 性 。 
本 文 所 提 算 法 验证 实验 在 计算 准确 率 的 同时 还 记录 了 推 
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开发 方面 能 否 起 到 一 定 的 作用 , 部 分 相关 药物 -疾病 组 合 具体 
情况 如 表 2 所 示 。 


一 和 一 本 文 所 提 算 法 
一 6 一 传统 协同 过 滤 算 法 


Precision 


10 15 20 25 30 35 
K-near 


图 4 ”本文 所 提 算 法 与 传统 协同 过 滤 算 法 准确 率 对 比 


Fig.4 Comparison of precision between the proposed algorithm and 


the traditional collaborative filtering algorithm 


一 和 一 本 文 所 提 算 法 
一 @ 一 传统 协同 过 波 算法 


10 15 20 25 30 35 
K-near 


图 5 本 文 所 提 算 法 与 传统 协同 过 滤 算 法 上 值 对 比 


Fig.5 Comparison of F-measure between the proposed algorithm and 


the traditional collaborative filtering algorithm 


一 一 本 文 所 提 算 法 
一 人 @ 一 传统 协同 过 洪 算 法 


25 
K-near 


图 6 本 文 所 提 算 法 与 传统 协同 过 滤 算 法 MAE 对 比 
Fig.6 Comparison of MAE between the proposed algorithm and the 
traditional collaborative filtering algorithm 


表 1 基于 药物 特点 推荐 的 实验 结果 


Table 1 Experimental results recommended based on drug 
characteristics 
K-near 10 15 20 25 
MAE 0.1538 0.1212 0.2857 0 
Recall 0.2 0.1054 0.0182 0.0036 
Precision 0.8462 0.8788 0.7143 1 
F 0.324 0.188 


从 表 2 中 可 以 看 出 ， 预 测 有 疗效 的 药物 一 疾病 组 合 与 实 
际 情况 相符 ,其 中 除了 比较 明显 有 疗效 的 药物 一 疾病 组 合 外 ， 
头孢 曲 一 嗜 血 杆菌 感染 组 合 的 疗效 可 以 在 文献 [15] 中 的 实验 
得 到 证 实 ， 葡 萄 球菌 感染 多 表现 为 皮肤 、 软 组 织 感染 ， 也 可 


荐 列表 中 与 药物 -疾病 矩阵 中 实际 情况 不 符 的 药物 -疾病 组 
合 ， 通 过 分 析 这 些 组 合 可 以 进一步 验证 本 文 所 提 算 法 在 药物 


导致 病情 严重 、 危 及 生命 的 败血症 、 肺 炎 、 脑 膜 炎 等 ， 此 外 
尚 可 引起 异物 相关 感染 、 尿 路 感染 ， 这 与 头孢 泊 且 有 疗效 的 
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几 种 感染 相符 ; 艾 综 合 征 的 临床 表现 包括 : 消化 性 溃疡 、 


呕吐 、 腹 泻 等 ， 其 中 呕吐 症状 与 胃 复 安 疗效 相符 。 另 外 ， 革 
兰 氏 染 色 阴 性 杆菌 对 克 林 霉 素 耐 药 性 好 ， 而 本 文 所 提 算 法 却 
预测 了 区 林 霉 素 对 革 兰 氏 染 色 阴 性 杆菌 有 疗效 ， 这 可 能 是 
于 某 些 疾病 特征 选取 不 合理 造成 的 ， 这 也 是 后 期 需要 进一步 
研究 、 优 化 的 地 方 。 所 以 综 上 可 以 看 出 ， 本 文 所 提 算 法 确实 
可 以 发 现 一 些 现实 中 有 治疗 关系 的 药物 一 疾病 组 合 ， 而 且 精 
度 较 高 ， 进 一 步 表 明 本 文 所 提 推 荐 算法 应 用 于 药物 重 定位 的 


二 


这 


Rs 


可 行 性 和 有 效 性 ， 因 此 本 文 所 提 算 法 得 出 的 推荐 结果 理论 上 
以 在 药物 开发 中 起 到 辅助 作用 。 
表 2 预测 药物 -疾病 组 合 以 及 药物 实际 用 途 


Table 2 Drug-disease combinations predicted and 


口 


the Practical uses of the drugs 


药物 名 称 预测 有 疗效 的 疾病 药物 实际 用 途 


F 多 种 心律 失常 的 防治 ,如 室 上 性 心动 过 速 、 心 房 
颤动 、 单 源 性 及 多 源 性 室 性 过 早搏 动 综合 征 及 其 他 抗 
心律 失常 药 无 效 的 病例 
卡 托 普 利 高 血压 被 应 用 于 治疗 高 血压 和 某 些 类 型 的 充血 性 心力 衰竭 

治疗 呼吸 道 感染 、 泌 尿 系 统 感染 、 淋 病 


适用 于 敏感 菌 所 致 的 支气管 炎 、 肺 炎 及 泌尿 系统 、 友 
头 秀 泊 膨 。 葡萄 球菌 感染 | 四 ee 
内 和 软组织 、 中 耳 、 扁 桃 体 等 部 位 的 感染 
止 吐 药 , 可 用 于 术 后 以 及 药物 所 引起 的 呕吐 以 及 对 角 
骨 复 安 。。 卓 - 艾 综合 征 
气 性 消化 不 良 、 恶 心 、 哎 吐 也 有 较 好 的 疗效 
。 也 可 以 减轻 与 精神 分 裂 症 有 关 的 情感 症状 如 抑郁 、 焦 
哈 硫 平 。 ”精神 分 裂 症 
虑 及 认 知 缺陷 症状 
由 于 阻 洁 心 脏 起 捕 点 电位 的 肾上腺 素 能 兴奋 故 用 于 


醋 丁 洛 尔 ” 室 上 性 心动 过 速 
治疗 心律 失常 


主要 治疗 躁 狂 症 , 对 躁 狂 和 抑郁 交替 发 作 的 双 相 情感 
性 精神 障碍 有 很 好 的 治疗 和 预防 复发 作 


碳酸 锂 片 惊恐 障碍 


志 庆 大 过 大 肠 杆菌 感染 / 嗜 临床 上 主要 用 于 厌 氧 菌 引起 的 腹腔 和 妇科 感染 , 是 金 
克 林 霉 

血 菌 感染 黄色 葡萄 球菌 骨髓 炎 首选 治疗 药物 
5 结束 语 


药物 重 定位 是 药物 研发 的 一 种 重要 策略 ， 良 好 的 药物 重 
定位 策略 对 于 医疗 健康 领域 有 着 重要 意义 。 本 文 将 个 性 化 推 
荐 算法 应 用 到 药物 重 定 位 ， 通 过 关联 药物 与 疾病 特征 ， 同 时 
联系 药物 一 疾病 关联 和 矩阵、 药物 一 结构 、 药 物 一 秀和 蛋白 和 药 
物 一 副作用 关联 矩阵 ， 设 计 了 一 种 基于 药物 和 疾病 特征 关联 
的 药物 重 定 位 混合 推荐 算法 ， 实 验 结果 表明 本 文 所 提 算 法 在 
性 能 上 优 于 传统 协同 过 滤 算法 等 其 他 推荐 算法 ， 并 能 够 有 效 
地 应 用 于 药物 重 定位 中 。 
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